智能论文笔记

Resisting Adversarial Attacks in Deep Neural Networks using Diverse Decision Boundaries

Manaar Alam , Shubhajit Datta , Debdeep Mukhopadhyay , Arijit Mondal , Partha Pratim Chakrabarti

分类：机器学习 | 计算机视觉

2022-08-18

深度学习（DL）系统的安全性是一个极为重要的研究领域，因为它们正在部署在多个应用程序中，因为它们不断改善，以解决具有挑战性的任务。尽管有压倒性的承诺，但深度学习系统容易受到制作的对抗性例子的影响，这可能是人眼无法察觉的，但可能会导致模型错误分类。对基于整体技术的对抗性扰动的保护已被证明很容易受到更强大的对手的影响，或者证明缺乏端到端评估。在本文中，我们试图开发一种新的基于整体的解决方案，该解决方案构建具有不同决策边界的防御者模型相对于原始模型。通过（1）通过一种称为拆分和剃须的方法转换输入的分类器的合奏，以及（2）通过一种称为对比度功能的方法限制重要特征，显示出相对于相对于不同的梯度对抗性攻击，这减少了将对抗性示例从原始示例转移到针对同一类的防御者模型的机会。我们使用标准图像分类数据集（即MNIST，CIFAR-10和CIFAR-100）进行了广泛的实验，以实现最新的对抗攻击，以证明基于合奏的防御的鲁棒性。我们还在存在更强大的对手的情况下评估稳健性，该对手同时靶向合奏中的所有模型。已经提供了整体假阳性和误报的结果，以估计提出的方法的总体性能。

translated by 谷歌翻译

On the Evaluation of User Privacy in Deep Neural Networks using Timing Side Channel

Shubhi Shukla , Manaar Alam , Sarani Bhattacharya , Debdeep Mukhopadhyay , Pabitra Mitra

分类：机器学习

2022-08-01

在解决复杂的现实世界任务方面的最新深度学习（DL）进步导致其在实际应用中广泛采用。但是，这个机会具有重大的潜在风险，因为这些模型中的许多模型都依赖于对各种应用程序进行培训的隐私敏感数据，这使它们成为侵犯隐私的过度暴露威胁表面。此外，基于云的机器学习-AS-A-Service（MLAAS）在其强大的基础架构支持方面的广泛使用扩大了威胁表面，以包括各种远程侧渠道攻击。在本文中，我们首先在DL实现中识别并报告了一个新颖的数据依赖性计时侧通道泄漏（称为类泄漏），该实现源自广泛使用的DL Framework Pytorch中的非恒定时间分支操作。我们进一步展示了一个实用的推理时间攻击，其中具有用户特权和硬标签黑盒访问MLAA的对手可以利用类泄漏来损害MLAAS用户的隐私。 DL模型容易受到会员推理攻击（MIA）的攻击，其中对手的目标是推断在训练模型时是否使用过任何特定数据。在本文中，作为一个单独的案例研究，我们证明了具有差异隐私保护的DL模型（对MIA的流行对策）仍然容易受到MIA的影响，而不是针对对手开发的漏洞泄漏。我们通过进行恒定的分支操作来减轻班级泄漏并有助于减轻MIA，从而开发出易于实施的对策。我们选择了两个标准基准图像分类数据集CIFAR-10和CIFAR-100来训练五个最先进的预训练的DL模型，这是在具有Intel Xeon和Intel Xeon和Intel I7处理器的两个不同的计算环境中，以验证我们的方法。

translated by 谷歌翻译

PARL: Enhancing Diversity of Ensemble Networks to Resist Adversarial Attacks via Pairwise Adversarially Robust Loss Function

Manaar Alam , Shubhajit Datta , Debdeep Mukhopadhyay , Arijit Mondal , Partha Pratim Chakrabarti

分类：机器学习

2021-12-09

由于对抗性攻击的存在，深度学习分类器的安全性是一个关键的研究领域。这种攻击通常依赖于可转移性的原则，其中在代理分类器上制作的对手示例倾向于误导目标分类器，即使两个分类器都有相当不同的架构，也要误导目标分类器。抗逆性攻击的集合方法表明，对抗性示例的可能性不太可能在具有不同决策边界的集合中误导多个分类器。然而，最近的集合方法已被证明是易受强烈的对手或表现出缺乏结束到最终评估的影响。本文试图开发一种新的集合方法，该方法在训练过程中使用成对对手稳健的损失（PARL）功能来构造多种不同分类器。 PARL在同时在集合中的每个分类器中输入每个层的梯度。与之前的集合方法相比，建议的培训程序使PARL能够实现对黑盒转移攻击的更高稳健性，而不会对清洁实例的准确性产生不利影响。我们还评估了白盒攻击存在下的稳健性，其中使用目标分类器的参数制作了对抗示例。我们使用标准图像分类数据集在使用标准Reset20分类器培训的标准图像分类数据集目前，使用标准Reset20分类器，以展示所提出的集合方法的稳健性。

translated by 谷歌翻译

Online Subset Selection using $α$-Core with no Augmented Regret

Sourav Sahoo , Samrat Mukhopadhyay , Abhishek Sinha

分类：机器学习 | 人工智能

2022-09-28

我们考虑在线学习设置中的顺序稀疏子集选择的问题。假设集合$ [n] $由$ n $不同的元素组成。在$ t^{\ text {th}} $ round上，单调奖励函数$ f_t：2^{[n]} \ to \ m athbb {r} _+，$，为每个子集分配非阴性奖励$ [n]，向学习者透露$。学习者在奖励功能$ f_t $ for $ f_t $之前（k \ leq n）$选择（也许是随机的）子集$ s_t \ subseteq [n] $ of $ k $元素。由于选择的结果，学习者在$ t^{\ text {th}} $ round上获得了$ f_t（s_t）$的奖励。学习者的目标是设计一项在线子集选择策略，以最大程度地提高其在给定时间范围内产生的预期累积奖励。在这方面，我们提出了一种称为Score的在线学习策略（带有Core的子集选择），以解决大量奖励功能的问题。拟议的分数策略基于$ \ alpha $ core的新概念，这是对合作游戏理论文献中核心概念的概括。我们根据一个名为$ \ alpha $的遗憾的新绩效指标为分数政策建立学习保证。在这个新的指标中，与在线政策相比，离线基准的功能适当增强。我们给出了几个说明性示例，以表明可以使用分数策略有效地学习包括子模型在内的广泛奖励功能。我们还概述了如何在半伴奏反馈模型下使用得分策略，并以许多开放问题的总结结束了论文。

translated by 谷歌翻译

Collisionless Pattern Discovery in Robot Swarms Using Deep Reinforcement Learning

Nelson Sharma , Aswini Ghosh , Rajiv Misra , Supratik Mukhopadhyay , Gokarna Sharma

分类：机器人

2022-09-20

我们提出了一个基于强化的学习框架，用于自动发现在脂肪机器人群的任何初始配置中可用的模式。特别是，我们对脂肪机器人群中无碰撞收集和相互可见性的问题进行了建模，并发现使用我们的框架来解决它们的模式。我们表明，通过根据某些约束（例如相互可见性和安全接口）来塑造奖励信号，机器人可以发现无碰撞的轨迹，导致形成良好的聚集和可见性模式。

translated by 谷歌翻译

Detecting respiratory motion artefacts for cardiovascular MRIs to ensure high-quality segmentation

Amin Ranem , John Kalkhof , Caner Özer , Anirban Mukhopadhyay , Ilkay Oksuz

分类：计算机视觉

2022-09-20

尽管机器学习方法在其培训领域表现良好，但通常在现实世界中往往会失败。在心血管磁共振成像（CMR）中，呼吸运动代表了采集质量以及随后的分析和最终诊断的主要挑战。我们提出了一个工作流程，该工作流程预测CMRXMOTION挑战2022的CMR中呼吸运动的严重程度得分。这是技术人员在获取过程中立即提供有关CMR质量的反馈的重要工具，因为可以直接重新获得质量较差的图像，同时还可以重新获得质量。该患者在附近仍有可用。因此，我们的方法可确保获得的CMR在用于进一步诊断之前达到特定的质量标准。因此，在严重运动人工制品的情况下，它可以有效地进行适当诊断的有效基础。结合我们的细分模型，这可以通过提供完整的管道来保证适当的质量评估和对心血管扫描的真实细分来帮助心脏病专家和技术人员的日常工作。代码库可在https://github.com/meclabtuda/qa_med_data/tree/dev_qa_cmrxmotion获得。

translated by 谷歌翻译

Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild

Sindhu B Hegde , K R Prajwal , Rudrabha Mukhopadhyay , Vinay P Namboodiri , C. V. Jawahar

分类：计算机视觉 | 自然语言处理

2022-09-01

在这项工作中，我们解决了为野外任何演讲者发出静音唇部视频演讲的问题。与以前的作品形成鲜明对比的是，我们的方法（i）不仅限于固定数量的扬声器，（ii）并未明确对域或词汇构成约束，并且（iii）涉及在野外记录的视频，反对实验室环境。该任务提出了许多挑战，关键是，所需的目标语音的许多功能（例如语音，音调和语言内容）不能完全从无声的面部视频中推断出来。为了处理这些随机变化，我们提出了一种新的VAE-GAN结构，该结构学会了将唇部和语音序列关联到变化中。在指导培训过程的多个强大的歧视者的帮助下，我们的发电机学会了以任何人的唇部运动中的任何声音综合语音序列。多个数据集上的广泛实验表明，我们的优于所有基线的差距很大。此外，我们的网络可以在特定身份的视频上进行微调，以实现与单扬声器模型相当的性能，该模型接受了$ 4 \ times $ $数据的培训。我们进行了大量的消融研究，以分析我们体系结构不同模块的效果。我们还提供了一个演示视频，该视频与我们的网站上的代码和经过训练的模型一起展示了几个定性结果： -合成}}

translated by 谷歌翻译

HTML版本

Towards MOOCs for Lip Reading: Using Synthetic Talking Heads to Train Humans in Lipreading at Scale

Aditya Agarwal , Bipasha Sen , Rudrabha Mukhopadhyay , Vinay Namboodiri , C. V Jawahar

分类：计算机视觉

2022-08-21

许多具有某种形式听力损失的人认为唇读是他们日常交流的主要模式。但是，寻找学习或提高唇部阅读技能的资源可能具有挑战性。由于对与同行和言语治疗师的直接互动的限制，Covid $ 19 $流行的情况进一步加剧了这一点。如今，Coursera和Udemy等在线MOOCS平台已成为多种技能开发的最有效培训形式。但是，在线口头资源很少，因为创建这样的资源是一个广泛的过程，需要数月的手动努力来记录雇用的演员。由于手动管道，此类平台也受到词汇，支持语言，口音和扬声器的限制，并且使用成本很高。在这项工作中，我们研究了用合成生成的视频代替真实的人说话视频的可能性。合成数据可用于轻松合并更大的词汇，口音甚至本地语言以及许多说话者。我们提出了一条端到端的自动管道，以使用最先进的通话标题视频发电机网络，文本到语音的模型和计算机视觉技术来开发这样的平台。然后，我们使用仔细考虑的口头练习进行了广泛的人类评估，以验证我们设计平台针对现有的唇读平台的质量。我们的研究具体地指出了我们方法开发大规模唇读MOOC平台的潜力，该平台可能会影响数百万听力损失的人。

translated by 谷歌翻译

FaceOff: A Video-to-Video Face Swapping System

Aditya Agarwal , Bipasha Sen , Rudrabha Mukhopadhyay , Vinay Namboodiri , C. V. Jawahar

分类：计算机视觉

2022-08-21

双打在电影业中起着必不可少的作用。他们代替了演员在危险的特技场景或同一演员扮演多个角色的场景中代替。后来，Double的脸被演员的脸部和表达式取代，并用昂贵的CGI技术手动表达，耗资数百万美元，花了几个月的时间才能完成。一种自动化，廉价且快速的方法可以是使用旨在将身份从源面部视频（或图像）交换为目标面部视频的面部交换技术。但是，这种方法无法保留演员对场景上下文重要的源表达式。％对场景必不可少的。在电影院中必不可少的％。为了应对这一挑战，我们介绍了视频对视频（V2V）面部扫描，这是一项可以保留面部交换的新任务（1）源（演员）面部视频的身份和表达方式和（2）背景和目标（双重）视频的姿势。我们提出了一个V2V面部交换系统Cownoff，该系统通过学习强大的混合操作来运行，以根据上述约束来合并两个面部视频。它首先将视频减少到量化的潜在空间，然后将它们混合在减少的空间中。对抗以一种自我监督的方式进行了训练，并坚决应对V2V面部交换的非平凡挑战。如实验部分所示，面对面的表现明显优于定性和定量的交替方法。

translated by 谷歌翻译

To show or not to show: Redacting sensitive text from videos of electronic displays

Abhishek Mukhopadhyay , Shubham Agarwal , Patrick Dylan Zwick , Pradipta Biswas

分类：计算机视觉 | 人工智能 | 机器学习

2022-08-19

随着视频录制的越来越多的流行率，对可以维护记录人员隐私的工具的需求日益增长。在本文中，我们定义了一种使用光学角色识别（OCR）和自然语言处理（NLP）技术的组合从视频中编辑个人身份文本的方法。当与不同的OCR模型，特别是Tesseract和Google Cloud Vision（GCV）的OCR系统时，我们检查了这种方法的相对性能。对于拟议的方法，GCV的性能以准确性和速度显着高于Tesseract。最后，我们探讨了现实世界应用中这两种模型的优势和缺点。

translated by 谷歌翻译